home *** CD-ROM | disk | FTP | other *** search
/ ftp.cs.arizona.edu / ftp.cs.arizona.edu.tar / ftp.cs.arizona.edu / icon / newsgrp / group97a.txt / 000052_icon-group-sender _Thu Feb 27 09:59:21 1997.msg < prev    next >
Internet Message Format  |  2000-09-20  |  3KB

  1. Received: by cheltenham.cs.arizona.edu; Fri, 28 Feb 1997 08:56:42 MST
  2. To: icon-group@cs.arizona.edu
  3. Date: Thu, 27 Feb 1997 09:59:21 -0500
  4. From: Jan Galkowski <jan@solstice.digicomp.com>
  5. Message-Id: <3315A149.41C67EA6@solstice.digicomp.com>
  6. Organization: Digicomp Research Corporation
  7. Sender: icon-group-request@cs.arizona.edu
  8. References: <331437DE.41C67EA6@solstice.digicomp.com>, <5f1r3u$b7l@nef.ens.fr>
  9. Subject: Re: Icon and two-dimensional matching
  10. Errors-To: icon-group-errors@cs.arizona.edu
  11. Status: RO
  12. Content-Length: 2336
  13.  
  14. Marc Espie wrote:
  15. > In article <331437DE.41C67EA6@solstice.digicomp.com>,
  16. > Jan Galkowski  <jan@solstice.digicomp.com> wrote:
  17. > [SMALLER reply though]
  18. > >[LONG post warning!]
  19.  
  20. [snip]
  21.  
  22. >
  23. > Icon tables and sets are indeed a very powerful mechanism. However,
  24. > they sometimes suffer from their generality. The current implementation
  25. > uses hash functions that assume a rather smooth average distribution
  26. > of the data.
  27.  
  28. [snip]
  29.  
  30. > However, I've also ran into some spectacular failures. You see, the
  31. > sets of words I study are NOT average. Indeed, I am trying to find
  32. > some non obvious correlations between those... and the hashing functions...
  33. > well, I've got cases where everything ended up in one or two buckets,
  34. > or rather larger sets where the hashing process failed due to the
  35. > sheer size of the data.
  36. > I would rather like to be able to specify MORE things about my sets
  37. > (average size, distribution of data, other hashing functions) than
  38. > is possible with the current implementation.
  39.  
  40. Well, hash functions do have the drawback of making assumptions about
  41. the distribution of data.  This doesn't matter if the implementation is
  42. Icon,
  43. Perl, or APL.  (APL doesn't have a key-table lookup mechanism like
  44. Icon and Perl do, but it does use a hash function to retrieve variable 
  45. identifiers and sometimes APL programmers use a plethora of global
  46. variables to achieve the same effect.)  That's part of their nature.
  47.  
  48. > Right now, I have to reinvent the wheel, and reimplement somehow my
  49. > own sets without all the clarity  Icon procures to us.
  50.  
  51. Apart from the address space limitation -- which I'd think
  52. you'd overcome by defining a bigger table than you need -- I'd think the
  53. answer to the poor distribution problem would be to "prehash" the keys
  54. instead of investing in a lot of effort to build lookup routines, adding
  55. routines, removal routines, etc.  If one can tell lots of distinct keys 
  56. map into the same two buckets, use their distinctions to remap
  57. them into a wider scatter.  Why couldn't you use the Icon "map" to
  58. systematically jumble things up a bit?
  59.  
  60. [snip]
  61.  
  62. I'm curious: What does your post have to do with two-dimensional
  63. matching, or did it just comment on my lead paragraphs?
  64. -- 
  65.  Jan Theodore Galkowski,
  66.     Developer, tool & numerical methods elf
  67.  Digicomp Research Corporation,
  68.  Ithaca, NY 14850-5720
  69.